Nat. Commun | 北京理工大学邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组
以GPT模型为代表的生成式语言模型通过对海量文本的学习,具备了生成和理解复杂语言的能力,深刻的变革了自然语言处理领域。而我们人类的语言和生命的语言DNA本质上都是序列信息。基于这种相似性,语言模型在基因组学领域也有了诸多应用,例如功能基因的标注和调控片段的预测等。但已有的DNA语言模型多采用BERT架构,通过类似完形填空的方式进行训练,尽管可以理解DNA序列,但难以像GPT模型那样创造性地生成全新序列。同时这些模型的输入窗口较为狭窄,一次只能处理较短的DNA片段,难以对完整基因组进行分析。
2024年10月30日,北京理工大学邵斌教授课题组在 Nature Communications 期刊发表了题为:A long-context language model for deciphering and generating bacteriophage genomes 的最新研究论文。
该研究实现了首个生成式DNA大语言模型——megaDNA。该模型利用无标注的噬菌体基因组数据进行预训练,不仅能准确预测噬菌体的必需基因,更能够生成长达10万碱基对的崭新基因组片段,也就是能够像写作自然语言一样生成DNA序列。另外,模型在学习过程中获得的深层信息(embedding),还能应用于蛋白质突变效果预测、基因调控研究,以及无标注DNA片段分类等多个下游任务,展现出良好的泛化能力。
这篇论文在预印本平台bioRxiv上线时,《生物世界》“未来百科”栏目曾与邵斌博士做过一期访谈,详情——专访博德研究所计算科学家邵斌:用DNA语言模型破译和设计生命
研究团队在NCBI GenBank等公开数据库收集了约10万个高质量噬菌体完整基因组作为训练数据。在分词环节没有采用传统的BPE分词器,或者以k-mer方式将DNA切成小片段,而将每个碱基看作独立的文字单元(token),避免了分词环节可能带来的偏差,同时可以使语言模型学习到单碱基精度的DNA调控和设计信息。在模型架构上借鉴了Meta公司开发的多层transformer架构,每层注意力机制用以处理不同精度的DNA信息,克服了传统transformer模型只能处理短序列的限制。最终模型使用了三层transformer结构,包含1.5亿个参数。可以一次性分析长达10万个碱基的DNA序列,足以覆盖多数噬菌体的完整基因组。
研究团队推测DNA大语言模型在训练过程中掌握了噬菌体基因组设计的一般准则,基因组序列的评分(模型损失)能够反映其生物学适应性。为验证这一想法,针对λ噬菌体基因组进行了基因敲除的模拟实验,对基因组不同位置片段进行突变,利用语言模型计算序列损失,并与实际的CRISPR 基因敲除实验结果进行直接比对。计算发现模型预测的高突变损失区域与实验验证的必需基因高度重合,相应的预测准确度(AUROC)达到0.86。
这一结果表明,即便没有经过专门的训练和微调,大语言模型通过对大量噬菌体完整基因组的无监督学习,仍能准确识别其中的必需基因,展现了其在基因组分析中的应用潜力。这也是传统计算工具难以实现的功能,突显了语言模型在这一领域的独特优势。
另外,模型在学习过程中获取的DNA序列信息(即隐含层表示,embedding)能够应用于一系列的下游预测任务。比如在蛋白质突变效果预测上,模型表现和专业工具DeepSequence接近,甚至能够准确预测训练数据中没有出现过的细菌蛋白对应的突变效果。另外在5端非翻译区(5'UTR)转录活性的预测上,预测结果与实验数据的相关系数达到了0.8以上。最后模型的隐含层表示可以针对未标注DNA序列进行分类,构建的简单分类模型针对噬菌体,细菌和古菌序列得到了较高的准确度(AUROC=0.98)。
以GPT为代表的生成式语言模型最重要的能力之一是产生全新的具有丰富内涵的文字序列。研究团队利用megaDNA模型生成了一千条崭新的基因组DNA序列,并利用软件geNomad对序列进行系统评估。这些人工生成的基因组序列平均长度为4.3万碱基对,包含67个预测基因,这些特征与训练数据中的真实噬菌体基因组高度相似。其中22%的序列被识别为有尾噬菌体目(Caudoviricetes)。在表达调控方面,这些序列具有完整的可能发挥功能的基因表达系统,包括典型的细菌启动子序列(-35和-10区),其5端非翻译序列的转录活性显著高于随机DNA。同时在起始密码子ATG前具有富含A和G碱基的核糖体结合位点(RBS)。通过EMSFold进行结构预测,结果显示这些预测的基因能够形成有效的蛋白质折叠结构。在功能方面,预测基因编码了噬菌体所需的关键功能蛋白,涵盖尾部结构、DNA代谢、头部组装以及细胞裂解等功能。值得一提的是,这些生成的基因组序列以及预测基因跟已有的训练数据具有极低的序列相似性。
综上所述,该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力,为噬菌体基因组注释和功能序列设计开辟了全新的路径。虽然目前生成的基因组片段还未能实现噬菌体的完整生命功能(例如有效自我复制)。但这项研究及其后续工作为从头设计以噬菌体为代表的完整生物体基因组奠定了新的理论基础,有望在医疗、农业、食品安全等多个领域取得广泛应用。
北京理工大学准聘教授邵斌(前Broad Institute计算科学家)为该论文的第一作者兼通讯作者。上海独立研究者闫嘉伟博士为该工作提供了重要支持。
https://github.com/lingxusb/megaDNA
本期编辑:Double